Telegram Group & Telegram Channel
🔴 Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)

Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.

Оценка должна включать как количественные, так и качественные метрики.

➡️ Количественные метрики:

😶 Распределение токенов
Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.

😶 Покрытие словаря
Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.

😶 Статистика по длине документов
Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.

😶 Языковое распределение
В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).

➡️ Качественные проверки:

😶 Ручная выборка документов
Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.

😶 Проверка дубликатов и шаблонов
Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).

😶 Оценка перплексии на тестовой модели
Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.

😶 Автоматическое обнаружение аномалий
Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/996
Create:
Last Update:

🔴 Как системно оценить качество предобработанных данных перед обучением большой языковой модели (LLM)

Перед тем как запускать дорогостоящий процесс обучения LLM, важно убедиться, что ваши данные чисты, релевантны и структурированы.

Оценка должна включать как количественные, так и качественные метрики.

➡️ Количественные метрики:

😶 Распределение токенов
Проверьте, не доминируют ли специальные токены, мусорные фрагменты или нерелевантные конструкции. Ожидаемые токены (например, ключевые слова доменной области) должны иметь разумную частоту.

😶 Покрытие словаря
Оцените, насколько хорошо охвачены часто встречающиеся слова и сабворды в вашей предметной области. Можно использовать частотный анализ на корпусе.

😶 Статистика по длине документов
Сравните среднюю и медианную длину документов с ожидаемыми значениями. Аномально короткие или длинные тексты могут быть ошибками разметки или дубликатами.

😶 Языковое распределение
В мультиязычном корпусе важно убедиться, что каждый язык представлен в правильной пропорции. Используйте модель определения языка (например, fastText или langid.py).

➡️ Качественные проверки:

😶 Ручная выборка документов
Просмотрите случайные примеры: содержимое должно быть осмысленным, без мусора, персональных данных или несоответствий тематике.

😶 Проверка дубликатов и шаблонов
Автоматически найдите повторяющиеся документы или шаблонные страницы (например, элементы веб-навигации).

😶 Оценка перплексии на тестовой модели
Можно применить небольшую предварительно обученную LLM к данным, чтобы вычислить перплексию. Высокая перплексия может сигнализировать о шуме или нерелевантности.

😶 Автоматическое обнаружение аномалий
Используйте кластеризацию или модели выявления аномалий, чтобы найти подозрительные группы документов.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/996

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

How to Buy Bitcoin?

Most people buy Bitcoin via exchanges, such as Coinbase. Exchanges allow you to buy, sell and hold cryptocurrency, and setting up an account is similar to opening a brokerage account—you’ll need to verify your identity and provide some kind of funding source, such as a bank account or debit card. Major exchanges include Coinbase, Kraken, and Gemini. You can also buy Bitcoin at a broker like Robinhood. Regardless of where you buy your Bitcoin, you’ll need a digital wallet in which to store it. This might be what’s called a hot wallet or a cold wallet. A hot wallet (also called an online wallet) is stored by an exchange or a provider in the cloud. Providers of online wallets include Exodus, Electrum and Mycelium. A cold wallet (or mobile wallet) is an offline device used to store Bitcoin and is not connected to the Internet. Some mobile wallet options include Trezor and Ledger.

How to Invest in Bitcoin?

Like a stock, you can buy and hold Bitcoin as an investment. You can even now do so in special retirement accounts called Bitcoin IRAs. No matter where you choose to hold your Bitcoin, people’s philosophies on how to invest it vary: Some buy and hold long term, some buy and aim to sell after a price rally, and others bet on its price decreasing. Bitcoin’s price over time has experienced big price swings, going as low as $5,165 and as high as $28,990 in 2020 alone. “I think in some places, people might be using Bitcoin to pay for things, but the truth is that it’s an asset that looks like it’s going to be increasing in value relatively quickly for some time,” Marquez says. “So why would you sell something that’s going to be worth so much more next year than it is today? The majority of people that hold it are long-term investors.”

Библиотека собеса по Data Science | вопросы с собеседований from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA